比如,在趋势分析当中,我们可以把显著富集的模块中的基因作为前景基因,研究这些表达量变化一致的基因的功能。再比如,在circRNA的研究当中,我们可以把circRNA来源基因作为前景基因,也可以把差异表达的circRNA的来源基因作为前景基因,去分析这些circRNA可能存在的功能。
背景基因:对于有参的物种来说,一般建议用参考基因组上的全部基因,对于无参的物种来说,选择组装出来的全部unigenes作为背景基因。
对于有参物种来说,差异基因固定注释到某一个通路的基因数目是一定的,但我们进行测序的时候可能不会获得基因组上的全部基因,用得到的表达量表注释到某一个通路的背景基因可能就少了,P值大小就会有所不同。
有一篇文献提出,在做富集分析的时候应该选择被检测到的并且有表达的全部基因作为背景基因,以避免实验中的技术或者检测的偏差以及生物学偏差。而且,我们做实验通常取了固定组织去分析,如果用了基因组全部的基因,那文章的意义就变成了告诉大家我们正在研究这个组织,其实不算真正探讨了这个组织内的基因富集情况[1]。
但我们在实际的研究当中,为了最大化地获得富集的信息,通常还是选择基因组全部的基因当作背景基因。对于非常见的模式生物来说,也会选择测序得到的基因作为背景基因。
如果用我们平台做富集分析,想要具体了解背景基因怎么准备的,可以查看omicshare论坛上这个帖子:
《如何轻松完成GO、KEGG富集分析》
https://www.omicshare.com/forum/thread-4933-1-1.html
富集分析结果怎么看?
下面就来讲讲常见的富集分析的图形
(1) 有向无环图
如果一个有向图从任意顶点出发无法经过若干条边回到该点,这个图就是一个有向无环图(directed acyclic graph,DAG),这个图是计算机图论中一种用于储存和检索数据信息的结构形式,可以利用多种搜索方法来进行存储和检索有向无环图中的数据,在软件设计、企业信息及生物信息学领域,都有应用。
GO数据库是最流行的基因注释库之一,不仅因为这个数据库大且详细,而且是具有高度结构性的,所以可以应用这种图形去呈现结果。
关于有的文章里出现的GO-tree那种GO term之间 “is a、part of 和 regulates” 的关系,大家可以查看论坛里面的帖子理解一下:
《 GO数据库的分类层级说明》
https://www.omicshare.com/forum/thread-538-1-1.html
在常见GO的DAG图中,三个ontology会分开描述(如上图),每个图有一个根和可能上千个节点,没有区分is a、part of这两种类型的关系[2],只表示了上下层级的关系;
形状:方形是默认输出的显著性最高的前10个GO term,其他就都是圆形了;
颜色:颜色越深,代表p值越小,富集越显著;
文字:图形里各文字的含义如下
1:GO term编号
2:GO term描绘速
3:P值
4:前景基因中注释到该term的基因数目/背景基因中注释到该term的基因数
(2) 富集气泡图
高级气泡图 可以对数据库富集的通路进行可视化,是富集常用的可视化图形之一,一般我们会挑选显著分析的前20左右的 pathway/term进行展示,这里以GO富集气泡图为例。
X轴:RichFactor,富集因子,是指前景基因集中属于这个term的基因的数量/背景基因集中富集在这个term中所有基因的数量;
Y轴:GO term名称;
气泡颜色:Q值(也可以用P值绘图),代表富集显著程度,在这个图形当中,颜色越红代表Q值越小,富集程度越高;
气泡大小:数量,前景基因集中属于这个term的基因数量。
Omicshare气泡图工具及图形详解请见:
《OS Tools - 高级气泡图的使用说明与详细解读》
https://www.omicshare.com/forum/thread-835-1-1.html
(3) 富集柱状图
柱状图也是对数据库富集的通路进行可视化的一种方式,是富集常用的另外一种可视化图形, 一般来说,它同样挑选显著分析的前20左右的 pathway/term进行展示,这里以KEGG富集结果为例。
X轴:Gene Percent(%),柱子长短代表前景基因富集在该pathway上数目占所有前景基因的百分比。柱子上的数字为基因数量,和对应的q值;
Y轴:Pathway名称;
柱状图颜色:Q值(也可以用P值绘图),代表富集显著程度,颜色越深代表Q值越小,富集程度越高。
(4)其他图形
我们基迪奥的转录组和蛋白组的结题报告里面还有富集圈图和富集差异气泡图,这两种图不但更美观,而且通过图例也能看出来,图形给出的信息也更详细了。另外,我们除了GO、KEGG,还有利用Reactome和DO数据库进行富集的结果呦~
Reactome富集圈图
富集差异气泡图
怎么做后续分析?
后续分析通常是根据富集的结果,关注最显著富集(Q